(25)Python的基礎介紹和爬蟲

python

409261275 2022-10-15 13:40:13 ‧ 1211 瀏覽

分享至

Python 網路爬蟲WebCrawler-Cookie操作實務(上)

基本流程
1.連線到特定網址,抓取資料
2.解析資料,取得實際想要的部分

Cookie
什麼是cookie?
Cookie 是一個小型文字檔案,儲存在使用者瀏覽器中。當您瀏覽網站時，設定於瀏覽器內的 Cookies，會讓瀏覽器記下一些特定的資訊以便未來能夠更加方便被使用。Ex:將您在網站上所打的文字或是一些選擇記錄下來。當下次再訪問同一個網站，伺服器會先看看有沒有上次留下的 Cookie 資料，有的話，會依據裡面的內容來判斷使用者，送出特定的網頁內容給您。

Cookie 是設定於使用者電腦的瀏覽器內，所以當您使用其他電腦連結相同網站時，Cookie 會重新紀錄。所以不用擔心您的 Cookie 資料會傳送到其他電腦中喔。

Cookie的用途
Cookie 是一種讓網站瀏覽更流暢方便的機制，網站利用 Cookie 最廣泛的用途有以下幾種:
1.網路購物
2.自動登入
3.廣告投放

與伺服器的互動
連線時,放在request headers送出

追蹤連結
HTML超連結
在我們的網頁,HTML的原始碼中經常會包含網頁的超連結,使用者點選可以直接連結到該網頁
我們需要能夠抓取超連結的網頁

連續抓取頁面實務
解析頁面的超連結,並結合程式邏輯完成

下一篇會使用程式碼範例來讓大家更了解操作過程

參考來源:https://www.waca.net/support/id/445
https://www.youtube.com/watch?v=BEA7F9ExiPY&list=PL-g0fdC5RMboYEyt6QS2iLb_1m7QcgfHk&index=20